========================================================

Dataset: Este conjunto de dados contém 1.599 vinhos tintos com 11 variáveis de propriedades químicas do vinho. Ao menos 3 especialistas em vinhos avaliaram cada vinho, fornecendo uma nota entre 0 (muito ruim) e 10 (muito excelente). Mais informações serão encontradas aqui..

Questão Guia: Quais propriedades químicas influenciam a qualidade dos vinhos tintos?

Estrutura dos dados

Dimensão do dataset

dim(rw)
## [1] 1599   13

Contém 1599 registros com 13 variáveis

Quais são as variáveis?

names(rw)
##  [1] "X"                    "fixed.acidity"        "volatile.acidity"    
##  [4] "citric.acid"          "residual.sugar"       "chlorides"           
##  [7] "free.sulfur.dioxide"  "total.sulfur.dioxide" "density"             
## [10] "pH"                   "sulphates"            "alcohol"             
## [13] "quality"

Descrição das variáveis:

  1. Fixed acidity: most wine acids involved are fixed or nonvolatile (do not evaporate readily)
  2. Volatile acidity: amount of acetic acid in wine - can be unpleasant, vinegary taste if too high?
  3. Citric acid: found in small quantities, can add ‘freshness’ and flavor to wines
  4. Residual sugar: sugar remaining after fermentation stops, rare < 1 gram/liter, > 45 grams/liter are considered sweet
  5. Chlorides: amount of salt in the wine
  6. Free sulfur dioxide: the free form of SO2 - prevents microbial growth and the oxidation of wine
  7. Total sulfur dioxide: free + bound forms of S02; in low concentrations, mostly undetectable in wine, free SO2 over 50 ppm, evident in the nose and taste of wine
  8. Density: the density of water is close to that of water (approx 1) depending on the percent alcohol and sugar content
  9. pH: acidic on a scale from 0 (very acidic) to 14 (very basic); most wines are between 3-4 on the pH scale
  10. Sulphates: anadditive which can contribute to S02 levels, acts as an antimicrobial and antioxidant.
  11. Alcohol: the percent alcohol content of the wine
  12. Quality (Output Variable) - sensory score between 0 and 10

Tipos das variáveis.

str(rw)
## 'data.frame':    1599 obs. of  13 variables:
##  $ X                   : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ fixed.acidity       : num  7.4 7.8 7.8 11.2 7.4 7.4 7.9 7.3 7.8 7.5 ...
##  $ volatile.acidity    : num  0.7 0.88 0.76 0.28 0.7 0.66 0.6 0.65 0.58 0.5 ...
##  $ citric.acid         : num  0 0 0.04 0.56 0 0 0.06 0 0.02 0.36 ...
##  $ residual.sugar      : num  1.9 2.6 2.3 1.9 1.9 1.8 1.6 1.2 2 6.1 ...
##  $ chlorides           : num  0.076 0.098 0.092 0.075 0.076 0.075 0.069 0.065 0.073 0.071 ...
##  $ free.sulfur.dioxide : num  11 25 15 17 11 13 15 15 9 17 ...
##  $ total.sulfur.dioxide: num  34 67 54 60 34 40 59 21 18 102 ...
##  $ density             : num  0.998 0.997 0.997 0.998 0.998 ...
##  $ pH                  : num  3.51 3.2 3.26 3.16 3.51 3.51 3.3 3.39 3.36 3.35 ...
##  $ sulphates           : num  0.56 0.68 0.65 0.58 0.56 0.56 0.46 0.47 0.57 0.8 ...
##  $ alcohol             : num  9.4 9.8 9.8 9.8 9.4 9.4 9.4 10 9.5 10.5 ...
##  $ quality             : int  5 5 5 6 5 5 5 7 7 5 ...

Estatísticas Descritiva das variáveis

summary(rw)
##        X          fixed.acidity   volatile.acidity  citric.acid   
##  Min.   :   1.0   Min.   : 4.60   Min.   :0.1200   Min.   :0.000  
##  1st Qu.: 400.5   1st Qu.: 7.10   1st Qu.:0.3900   1st Qu.:0.090  
##  Median : 800.0   Median : 7.90   Median :0.5200   Median :0.260  
##  Mean   : 800.0   Mean   : 8.32   Mean   :0.5278   Mean   :0.271  
##  3rd Qu.:1199.5   3rd Qu.: 9.20   3rd Qu.:0.6400   3rd Qu.:0.420  
##  Max.   :1599.0   Max.   :15.90   Max.   :1.5800   Max.   :1.000  
##  residual.sugar     chlorides       free.sulfur.dioxide
##  Min.   : 0.900   Min.   :0.01200   Min.   : 1.00      
##  1st Qu.: 1.900   1st Qu.:0.07000   1st Qu.: 7.00      
##  Median : 2.200   Median :0.07900   Median :14.00      
##  Mean   : 2.539   Mean   :0.08747   Mean   :15.87      
##  3rd Qu.: 2.600   3rd Qu.:0.09000   3rd Qu.:21.00      
##  Max.   :15.500   Max.   :0.61100   Max.   :72.00      
##  total.sulfur.dioxide    density             pH          sulphates     
##  Min.   :  6.00       Min.   :0.9901   Min.   :2.740   Min.   :0.3300  
##  1st Qu.: 22.00       1st Qu.:0.9956   1st Qu.:3.210   1st Qu.:0.5500  
##  Median : 38.00       Median :0.9968   Median :3.310   Median :0.6200  
##  Mean   : 46.47       Mean   :0.9967   Mean   :3.311   Mean   :0.6581  
##  3rd Qu.: 62.00       3rd Qu.:0.9978   3rd Qu.:3.400   3rd Qu.:0.7300  
##  Max.   :289.00       Max.   :1.0037   Max.   :4.010   Max.   :2.0000  
##     alcohol         quality     
##  Min.   : 8.40   Min.   :3.000  
##  1st Qu.: 9.50   1st Qu.:5.000  
##  Median :10.20   Median :6.000  
##  Mean   :10.42   Mean   :5.636  
##  3rd Qu.:11.10   3rd Qu.:6.000  
##  Max.   :14.90   Max.   :8.000

Seção de Gráficos Univariados

Análise Univariada

Vamos analisar a distribuição de cada variável, verificando se há alguma distribuição incomum ou se alguma variável precisa de alguma transformação ou limpeza.

  1. Fixed Acidity:
ggplot(aes(x=fixed.acidity), data=rw) + 
  geom_histogram(binwidth = 0.5)

A distribuição tem um pequena cauda a direita. A relação da qualidade para esses valores acima de 14 não indica um aumento de qualidade, como mostra a tabela abaixo. Então esses valores serão considerados outliers e serão removidos. Tabela de qualidade: fixed.acidity >14

table(rw$quality,rw$fixed.acidity >14)
##    
##     FALSE TRUE
##   3    10    0
##   4    53    0
##   5   677    4
##   6   637    1
##   7   196    3
##   8    18    0
rw_clean <- subset(rw,rw$fixed.acidity<=14)
ggplot(aes(x=fixed.acidity), data=rw_clean) + 
  geom_histogram(binwidth = 0.5)

Removendo os outliers, a distribuição é normal.

  1. Volatile acidity
ggplot(aes(x=volatile.acidity), data=rw_clean) + 
  geom_histogram()

Aparentemete esta variável possui alguns outliers. Não terá influência na qualidade se esses outliers forem removidos. Tabela de Qualidade: volatile.acidity >1.2

table(rw_clean$quality,rw_clean$volatile.acidity >1.2)
##    
##     FALSE TRUE
##   3     9    1
##   4    53    0
##   5   674    3
##   6   637    0
##   7   196    0
##   8    18    0
rw_clean <- subset(rw_clean, rw_clean$volatile.acidity <=1.2)
ggplot(aes(x=volatile.acidity), data=rw_clean) + 
  geom_histogram()

Agora a distribuição da variável é normal.

  1. Citric Acid
ggplot(aes(x=citric.acid), data=rw_clean) + 
  geom_histogram()

Tabela de Qualidade: citric.acid == 0 Existem 121 corrências para citric.acid == 0

table(rw_clean$quality,rw_clean$citric.acid ==0)
##    
##     FALSE TRUE
##   3     7    2
##   4    43   10
##   5   619   55
##   6   583   54
##   7   188    8
##   8    18    0

Tabela de Qualidade: citric.acid > 0.75

table(rw_clean$quality,rw_clean$citric.acid >0.75)
##    
##     FALSE TRUE
##   3     9    0
##   4    52    1
##   5   672    2
##   6   636    1
##   7   195    1
##   8    18    0

A melhor opção neste caso é remover os outliers > 0.75 que irá espalhar a distribuição.

rw_clean <- subset(rw_clean, rw_clean$citric.acid <= 0.75)
ggplot(aes(x=citric.acid), data=rw_clean) + 
  geom_histogram()

  1. Residual Sugar
ggplot(aes(x=residual.sugar), data=rw_clean) + 
  geom_histogram()

Tabela de Qualidade: residual.sugar > 7

table(rw_clean$quality,rw_clean$residual.sugar > 7)
##    
##     FALSE TRUE
##   3     9    0
##   4    51    1
##   5   660   12
##   6   625   11
##   7   192    3
##   8    18    0

Estes outliers também serão removidos

rw_clean <- subset(rw_clean, rw_clean$residual.sugar <= 7)
ggplot(aes(x=residual.sugar), data=rw_clean) + 
  geom_histogram()

Apesar da retirada dos outliers. Ainda existe uma cauda a direita na distribuição.

p1 <- ggplot(aes(x=residual.sugar), data=rw_clean) + 
  geom_histogram() +
  scale_x_log10() + 
  xlab("Residual Sugar (Scale log10)")

p2 <- ggplot(aes(x=residual.sugar), data=rw_clean) + 
  geom_histogram() +
  scale_x_sqrt() +
  xlab("Residual Sugar (Scale sqrt)")
grid.arrange(p1,p2, ncol=2)

Escalando esta variável na base logaritmica, melhora sua distribuição.

rw_clean$residual.sugar.log <- log(rw_clean$residual.sugar)
  1. Chlorides
ggplot(aes(x=chlorides), data=rw_clean) + 
  geom_histogram()

Tabela Qualidade: chlorides > 0.2

table(rw_clean$quality,rw_clean$chlorides > 0.2)
##    
##     FALSE TRUE
##   3     8    1
##   4    51    0
##   5   643   17
##   6   610   15
##   7   190    2
##   8    18    0
p1 <- ggplot(aes(x=chlorides), data=rw_clean) + 
  geom_histogram() +
  scale_x_log10() + 
  xlab("Residual Sugar (Scale log10)")

p2 <- ggplot(aes(x=chlorides), data=rw_clean) + 
  geom_histogram() +
  scale_x_sqrt() +
  xlab("Residual Sugar (Scale sqrt)")
grid.arrange(p1,p2, ncol=2)

Escalando para a base logaritmica, a distribuição fica mais normalizada

rw_clean$chlorides.log <- log(rw_clean$chlorides)
  1. Free Sulfur Dioxide
ggplot(aes(x=free.sulfur.dioxide), data=rw_clean) + 
  geom_histogram()

Tabela Qualidade: chlorides > 0.2

table(rw_clean$quality,rw_clean$free.sulfur.dioxide > 60)
##    
##     FALSE TRUE
##   3     9    0
##   4    51    0
##   5   659    1
##   6   625    0
##   7   192    0
##   8    18    0

Removendo outlier

rw_clean <- subset(rw_clean, rw_clean$free.sulfur.dioxide <= 60)
p1 <- ggplot(aes(x=free.sulfur.dioxide), data=rw_clean) + 
  geom_histogram() +
  scale_x_log10() + 
  xlab("Free Sulfur Dioxide (Scale log10)")

p2 <- ggplot(aes(x=free.sulfur.dioxide), data=rw_clean) + 
  geom_histogram() +
  scale_x_sqrt() +
  xlab("Free Sulfur Dioxide (Scale sqrt)")
grid.arrange(p1,p2, ncol=1)

Escalar na base logarítmica a variável para normalizar

rw_clean$free.sulfur.dioxide.log <- log(rw_clean$free.sulfur.dioxide)
  1. Total sulfur dioxide
ggplot(aes(x=total.sulfur.dioxide), data=rw_clean) + 
  geom_histogram()

Tabela Qualidade: total.sulfur.dioxide > 0.2

table(rw_clean$quality,rw_clean$total.sulfur.dioxide > 160)
##    
##     FALSE TRUE
##   3     9    0
##   4    51    0
##   5   659    0
##   6   624    1
##   7   192    0
##   8    18    0

Removendo outlier

rw_clean <- subset(rw_clean, rw_clean$total.sulfur.dioxide <= 160)
p1 <- ggplot(aes(x=total.sulfur.dioxide), data=rw_clean) + 
  geom_histogram() +
  scale_x_log10() + 
  xlab("Total Sulfur Dioxide (Scale log10)")

p2 <- ggplot(aes(x=total.sulfur.dioxide), data=rw_clean) + 
  geom_histogram() +
  scale_x_sqrt() +
  xlab("Total Sulfur Dioxide (Scale sqrt)")
grid.arrange(p1,p2, ncol=1)

Escalar na base logarítmica a variável para normalizar

rw_clean$total.sulfur.dioxide.log <- log(rw_clean$total.sulfur.dioxide)
  1. Density
ggplot(aes(x=density), data=rw_clean) + 
  geom_histogram()

Variável com distribuição normal

  1. pH
ggplot(aes(x=pH), data=rw_clean) + 
  geom_histogram()

Variável com distribuição normal

  1. Sulphates
ggplot(aes(x=sulphates), data=rw_clean) + 
  geom_histogram()

Tabela Qualidade: sulphates > 1.5

table(rw_clean$quality,rw_clean$sulphates > 1.5)
##    
##     FALSE TRUE
##   3     9    0
##   4    51    0
##   5   655    4
##   6   621    3
##   7   192    0
##   8    18    0

Removendo outlier. Eles tem baixo nivel de qualidade e pouco influenciarão de remove-los

rw_clean <- subset(rw_clean, rw_clean$sulphates <= 1.5)
p1 <- ggplot(aes(x=sulphates), data=rw_clean) + 
  geom_histogram() +
  scale_x_log10() + 
  xlab("sulphates (Scale log10)")

p2 <- ggplot(aes(x=sulphates), data=rw_clean) + 
  geom_histogram() +
  scale_x_sqrt() +
  xlab("sulphates (Scale sqrt)")
grid.arrange(p1,p2, ncol=1)

Escalar na base logarítmica a variável para normalizar

rw_clean$sulphates.log <- log(rw_clean$sulphates)
  1. Alcohol
ggplot(aes(x=alcohol), data=rw_clean) + 
  geom_histogram()

Tabela Qualidade: alcohol < 9

table(rw_clean$quality,rw_clean$alcohol < 9)
##    
##     FALSE TRUE
##   3     8    1
##   4    51    0
##   5   654    1
##   6   619    2
##   7   192    0
##   8    18    0

Nenhuma mudanca nesta variável é significativa.

  1. Quality

Variável chave do nosso dataset. Melhor não mudar.

ggplot(aes(x=quality), data=rw_clean) + 
  geom_histogram()

Seção de Gráficos Bivariados

cor(rw_clean)
##                                    X fixed.acidity volatile.acidity
## X                         1.00000000   -0.27065157     -0.005503430
## fixed.acidity            -0.27065157    1.00000000     -0.275317204
## volatile.acidity         -0.00550343   -0.27531720      1.000000000
## citric.acid              -0.15730174    0.68612138     -0.563717323
## residual.sugar           -0.10904758    0.16927037      0.050704201
## chlorides                -0.11995981    0.10205426      0.061055339
## free.sulfur.dioxide       0.08563698   -0.15016156     -0.006776397
## total.sulfur.dioxide     -0.12974613   -0.10394187      0.105338439
## density                  -0.38954807    0.66723764      0.021150147
## pH                        0.12677683   -0.69025704      0.232476475
## sulphates                -0.09142059    0.19373447     -0.291890116
## alcohol                   0.25460581   -0.07710964     -0.212127190
## quality                   0.06974852    0.12389357     -0.382785120
## residual.sugar.log       -0.12204139    0.20163527      0.053194399
## chlorides.log            -0.16604614    0.18093766      0.100981416
## free.sulfur.dioxide.log   0.06980623   -0.18032963      0.030705867
## total.sulfur.dioxide.log -0.12770141   -0.11292677      0.096705495
## sulphates.log            -0.08842357    0.19943758     -0.311848564
##                          citric.acid residual.sugar   chlorides
## X                        -0.15730174    -0.10904758 -0.11995981
## fixed.acidity             0.68612138     0.16927037  0.10205426
## volatile.acidity         -0.56371732     0.05070420  0.06105534
## citric.acid               1.00000000     0.15530921  0.17987594
## residual.sugar            0.15530921     1.00000000  0.01998337
## chlorides                 0.17987594     0.01998337  1.00000000
## free.sulfur.dioxide      -0.07665115     0.02718331 -0.04063681
## total.sulfur.dioxide      0.01080430     0.10629537  0.04197609
## density                   0.36495716     0.35516969  0.19677713
## pH                       -0.53017859    -0.06514375 -0.24610380
## sulphates                 0.32668144     0.05750347  0.31701954
## alcohol                   0.10752299     0.11495917 -0.22075800
## quality                   0.22848560     0.03523646 -0.11541766
## residual.sugar.log        0.16635280     0.97029785  0.02338280
## chlorides.log             0.16708762     0.09393694  0.91140611
## free.sulfur.dioxide.log  -0.10541013     0.00379018 -0.03359133
## total.sulfur.dioxide.log -0.02299089     0.07210172  0.04611665
## sulphates.log             0.33180148     0.06381002  0.26831344
##                          free.sulfur.dioxide total.sulfur.dioxide
## X                                0.085636977         -0.129746132
## fixed.acidity                   -0.150161556         -0.103941868
## volatile.acidity                -0.006776397          0.105338439
## citric.acid                     -0.076651146          0.010804297
## residual.sugar                   0.027183314          0.106295366
## chlorides                       -0.040636811          0.041976089
## free.sulfur.dioxide              1.000000000          0.663395856
## total.sulfur.dioxide             0.663395856          1.000000000
## density                         -0.060483411          0.089651862
## pH                               0.093213977         -0.030493048
## sulphates                        0.052524607          0.008205888
## alcohol                         -0.054187532         -0.233754883
## quality                         -0.050103084         -0.211970197
## residual.sugar.log               0.033666530          0.118842006
## chlorides.log                   -0.045644729          0.061837186
## free.sulfur.dioxide.log          0.934368674          0.673895533
## total.sulfur.dioxide.log         0.712768430          0.933039953
## sulphates.log                    0.052830587         -0.003227329
##                              density          pH    sulphates     alcohol
## X                        -0.38954807  0.12677683 -0.091420595  0.25460581
## fixed.acidity             0.66723764 -0.69025704  0.193734467 -0.07710964
## volatile.acidity          0.02115015  0.23247647 -0.291890116 -0.21212719
## citric.acid               0.36495716 -0.53017859  0.326681445  0.10752299
## residual.sugar            0.35516969 -0.06514375  0.057503468  0.11495917
## chlorides                 0.19677713 -0.24610380  0.317019540 -0.22075800
## free.sulfur.dioxide      -0.06048341  0.09321398  0.052524607 -0.05418753
## total.sulfur.dioxide      0.08965186 -0.03049305  0.008205888 -0.23375488
## density                   1.00000000 -0.32810581  0.151029571 -0.51235448
## pH                       -0.32810581  1.00000000 -0.124656196  0.21224129
## sulphates                 0.15102957 -0.12465620  1.000000000  0.14613063
## alcohol                  -0.51235448  0.21224129  0.146130628  1.00000000
## quality                  -0.18391998 -0.05879047  0.308507858  0.49206146
## residual.sugar.log        0.39855917 -0.06872229  0.050742277  0.11329692
## chlorides.log             0.34949211 -0.27055018  0.229052131 -0.30230546
## free.sulfur.dioxide.log  -0.06159016  0.11892756  0.043449519 -0.07342268
## total.sulfur.dioxide.log  0.10852873  0.01283462  0.040647982 -0.24027937
## sulphates.log             0.15963306 -0.09334160  0.987067781  0.17337623
##                              quality residual.sugar.log chlorides.log
## X                         0.06974852        -0.12204139   -0.16604614
## fixed.acidity             0.12389357         0.20163527    0.18093766
## volatile.acidity         -0.38278512         0.05319440    0.10098142
## citric.acid               0.22848560         0.16635280    0.16708762
## residual.sugar            0.03523646         0.97029785    0.09393694
## chlorides                -0.11541766         0.02338280    0.91140611
## free.sulfur.dioxide      -0.05010308         0.03366653   -0.04564473
## total.sulfur.dioxide     -0.21197020         0.11884201    0.06183719
## density                  -0.18391998         0.39855917    0.34949211
## pH                       -0.05879047        -0.06872229   -0.27055018
## sulphates                 0.30850786         0.05074228    0.22905213
## alcohol                   0.49206146         0.11329692   -0.30230546
## quality                   1.00000000         0.03640052   -0.16511563
## residual.sugar.log        0.03640052         1.00000000    0.11352134
## chlorides.log            -0.16511563         0.11352134    1.00000000
## free.sulfur.dioxide.log  -0.05241825         0.01931625   -0.03916002
## total.sulfur.dioxide.log -0.18173507         0.09437606    0.06574406
## sulphates.log             0.34139250         0.06028516    0.19971250
##                          free.sulfur.dioxide.log total.sulfur.dioxide.log
## X                                     0.06980623              -0.12770141
## fixed.acidity                        -0.18032963              -0.11292677
## volatile.acidity                      0.03070587               0.09670549
## citric.acid                          -0.10541013              -0.02299089
## residual.sugar                        0.00379018               0.07210172
## chlorides                            -0.03359133               0.04611665
## free.sulfur.dioxide                   0.93436867               0.71276843
## total.sulfur.dioxide                  0.67389553               0.93303995
## density                              -0.06159016               0.10852873
## pH                                    0.11892756               0.01283462
## sulphates                             0.04344952               0.04064798
## alcohol                              -0.07342268              -0.24027937
## quality                              -0.05241825              -0.18173507
## residual.sugar.log                    0.01931625               0.09437606
## chlorides.log                        -0.03916002               0.06574406
## free.sulfur.dioxide.log               1.00000000               0.77950999
## total.sulfur.dioxide.log              0.77950999               1.00000000
## sulphates.log                         0.04731505               0.03433442
##                          sulphates.log
## X                         -0.088423571
## fixed.acidity              0.199437582
## volatile.acidity          -0.311848564
## citric.acid                0.331801483
## residual.sugar             0.063810020
## chlorides                  0.268313443
## free.sulfur.dioxide        0.052830587
## total.sulfur.dioxide      -0.003227329
## density                    0.159633065
## pH                        -0.093341603
## sulphates                  0.987067781
## alcohol                    0.173376226
## quality                    0.341392504
## residual.sugar.log         0.060285164
## chlorides.log              0.199712504
## free.sulfur.dioxide.log    0.047315053
## total.sulfur.dioxide.log   0.034334417
## sulphates.log              1.000000000

0.3-0.5 = Correlção baixa 0.5-0.7 = Correlção moderada 0.7+ = Correlção alta

Correlação da Qualidade com as demais variáveis

  1. fixed.acidity: 0.12389357
  2. volatile.acidity: -0.382785120*
  3. citric.acid: 0.22848560
  4. residual.sugar: 0.03523646
  5. chlorides: -0.11541766
  6. free.sulfur.dioxide: -0.050103084
  7. total.sulfur.dioxide: -0.211970197
  8. density: -0.18391998
  9. pH: -0.05879047
  10. sulphates: 0.308507858
  11. alcohol: 0.49206146*
  12. residual.sugar.log: 0.03640052
  13. chlorides.log: -0.16511563
  14. free.sulfur.dioxide.log: -0.05241825
  15. total.sulfur.dioxide.log: -0.18173507
  16. sulphates.log: 0.341392504*

Outras correlações que valem ser destacadas

r <- cor(rw_clean)
r[r<=0.3 & r >= -0.3] <- ""
r
##                          X                   fixed.acidity       
## X                        "1"                 ""                  
## fixed.acidity            ""                  "1"                 
## volatile.acidity         ""                  ""                  
## citric.acid              ""                  "0.686121375845558" 
## residual.sugar           ""                  ""                  
## chlorides                ""                  ""                  
## free.sulfur.dioxide      ""                  ""                  
## total.sulfur.dioxide     ""                  ""                  
## density                  "-0.38954807171065" "0.667237643356228" 
## pH                       ""                  "-0.690257037912984"
## sulphates                ""                  ""                  
## alcohol                  ""                  ""                  
## quality                  ""                  ""                  
## residual.sugar.log       ""                  ""                  
## chlorides.log            ""                  ""                  
## free.sulfur.dioxide.log  ""                  ""                  
## total.sulfur.dioxide.log ""                  ""                  
## sulphates.log            ""                  ""                  
##                          volatile.acidity     citric.acid         
## X                        ""                   ""                  
## fixed.acidity            ""                   "0.686121375845558" 
## volatile.acidity         "1"                  "-0.563717323200055"
## citric.acid              "-0.563717323200055" "1"                 
## residual.sugar           ""                   ""                  
## chlorides                ""                   ""                  
## free.sulfur.dioxide      ""                   ""                  
## total.sulfur.dioxide     ""                   ""                  
## density                  ""                   "0.364957156376029" 
## pH                       ""                   "-0.530178585139005"
## sulphates                ""                   "0.326681444678814" 
## alcohol                  ""                   ""                  
## quality                  "-0.382785119568119" ""                  
## residual.sugar.log       ""                   ""                  
## chlorides.log            ""                   ""                  
## free.sulfur.dioxide.log  ""                   ""                  
## total.sulfur.dioxide.log ""                   ""                  
## sulphates.log            "-0.311848564006785" "0.331801483373833" 
##                          residual.sugar      chlorides          
## X                        ""                  ""                 
## fixed.acidity            ""                  ""                 
## volatile.acidity         ""                  ""                 
## citric.acid              ""                  ""                 
## residual.sugar           "1"                 ""                 
## chlorides                ""                  "1"                
## free.sulfur.dioxide      ""                  ""                 
## total.sulfur.dioxide     ""                  ""                 
## density                  "0.355169687372301" ""                 
## pH                       ""                  ""                 
## sulphates                ""                  "0.317019539998429"
## alcohol                  ""                  ""                 
## quality                  ""                  ""                 
## residual.sugar.log       "0.970297845101139" ""                 
## chlorides.log            ""                  "0.911406107167814"
## free.sulfur.dioxide.log  ""                  ""                 
## total.sulfur.dioxide.log ""                  ""                 
## sulphates.log            ""                  ""                 
##                          free.sulfur.dioxide total.sulfur.dioxide
## X                        ""                  ""                  
## fixed.acidity            ""                  ""                  
## volatile.acidity         ""                  ""                  
## citric.acid              ""                  ""                  
## residual.sugar           ""                  ""                  
## chlorides                ""                  ""                  
## free.sulfur.dioxide      "1"                 "0.663395856042797" 
## total.sulfur.dioxide     "0.663395856042797" "1"                 
## density                  ""                  ""                  
## pH                       ""                  ""                  
## sulphates                ""                  ""                  
## alcohol                  ""                  ""                  
## quality                  ""                  ""                  
## residual.sugar.log       ""                  ""                  
## chlorides.log            ""                  ""                  
## free.sulfur.dioxide.log  "0.934368674113432" "0.673895533346571" 
## total.sulfur.dioxide.log "0.712768430128769" "0.933039952540035" 
## sulphates.log            ""                  ""                  
##                          density              pH                  
## X                        "-0.38954807171065"  ""                  
## fixed.acidity            "0.667237643356228"  "-0.690257037912984"
## volatile.acidity         ""                   ""                  
## citric.acid              "0.364957156376029"  "-0.530178585139005"
## residual.sugar           "0.355169687372301"  ""                  
## chlorides                ""                   ""                  
## free.sulfur.dioxide      ""                   ""                  
## total.sulfur.dioxide     ""                   ""                  
## density                  "1"                  "-0.328105811040359"
## pH                       "-0.328105811040359" "1"                 
## sulphates                ""                   ""                  
## alcohol                  "-0.512354480331928" ""                  
## quality                  ""                   ""                  
## residual.sugar.log       "0.398559170192909"  ""                  
## chlorides.log            "0.349492111358303"  ""                  
## free.sulfur.dioxide.log  ""                   ""                  
## total.sulfur.dioxide.log ""                   ""                  
## sulphates.log            ""                   ""                  
##                          sulphates           alcohol             
## X                        ""                  ""                  
## fixed.acidity            ""                  ""                  
## volatile.acidity         ""                  ""                  
## citric.acid              "0.326681444678814" ""                  
## residual.sugar           ""                  ""                  
## chlorides                "0.317019539998429" ""                  
## free.sulfur.dioxide      ""                  ""                  
## total.sulfur.dioxide     ""                  ""                  
## density                  ""                  "-0.512354480331928"
## pH                       ""                  ""                  
## sulphates                "1"                 ""                  
## alcohol                  ""                  "1"                 
## quality                  "0.308507858491"    "0.492061464379538" 
## residual.sugar.log       ""                  ""                  
## chlorides.log            ""                  "-0.302305462868869"
## free.sulfur.dioxide.log  ""                  ""                  
## total.sulfur.dioxide.log ""                  ""                  
## sulphates.log            "0.987067780613142" ""                  
##                          quality              residual.sugar.log 
## X                        ""                   ""                 
## fixed.acidity            ""                   ""                 
## volatile.acidity         "-0.382785119568119" ""                 
## citric.acid              ""                   ""                 
## residual.sugar           ""                   "0.970297845101139"
## chlorides                ""                   ""                 
## free.sulfur.dioxide      ""                   ""                 
## total.sulfur.dioxide     ""                   ""                 
## density                  ""                   "0.398559170192909"
## pH                       ""                   ""                 
## sulphates                "0.308507858491"     ""                 
## alcohol                  "0.492061464379538"  ""                 
## quality                  "1"                  ""                 
## residual.sugar.log       ""                   "1"                
## chlorides.log            ""                   ""                 
## free.sulfur.dioxide.log  ""                   ""                 
## total.sulfur.dioxide.log ""                   ""                 
## sulphates.log            "0.341392504153981"  ""                 
##                          chlorides.log        free.sulfur.dioxide.log
## X                        ""                   ""                     
## fixed.acidity            ""                   ""                     
## volatile.acidity         ""                   ""                     
## citric.acid              ""                   ""                     
## residual.sugar           ""                   ""                     
## chlorides                "0.911406107167814"  ""                     
## free.sulfur.dioxide      ""                   "0.934368674113432"    
## total.sulfur.dioxide     ""                   "0.673895533346571"    
## density                  "0.349492111358303"  ""                     
## pH                       ""                   ""                     
## sulphates                ""                   ""                     
## alcohol                  "-0.302305462868869" ""                     
## quality                  ""                   ""                     
## residual.sugar.log       ""                   ""                     
## chlorides.log            "1"                  ""                     
## free.sulfur.dioxide.log  ""                   "1"                    
## total.sulfur.dioxide.log ""                   "0.779509991317779"    
## sulphates.log            ""                   ""                     
##                          total.sulfur.dioxide.log sulphates.log       
## X                        ""                       ""                  
## fixed.acidity            ""                       ""                  
## volatile.acidity         ""                       "-0.311848564006785"
## citric.acid              ""                       "0.331801483373833" 
## residual.sugar           ""                       ""                  
## chlorides                ""                       ""                  
## free.sulfur.dioxide      "0.712768430128769"      ""                  
## total.sulfur.dioxide     "0.933039952540035"      ""                  
## density                  ""                       ""                  
## pH                       ""                       ""                  
## sulphates                ""                       "0.987067780613142" 
## alcohol                  ""                       ""                  
## quality                  ""                       "0.341392504153981" 
## residual.sugar.log       ""                       ""                  
## chlorides.log            ""                       ""                  
## free.sulfur.dioxide.log  "0.779509991317779"      ""                  
## total.sulfur.dioxide.log "1"                      ""                  
## sulphates.log            ""                       "1"

Conclusão 1. Variáveis que foram escaladas, vão ser usadas ao invés das variáveis originais, caso sua correlação for significante. 2. A variável residual.sugar.log , será descartada da análise pois só tem uma correlação pequena com density. Deve ser ao fato que vinhos tintos não tendem a serem doces. 3. A análise será iniciada pelas 3 variáveis que mais críicas em relação a qualidade: volatile.acidity, alcohol, sulphates.log

Seção de Gráficos Multivariados

A tendência do vinho ter maior qualidade quando o teor alcoólico aumenta.

A tendência do vinho ter maior qualidade quando a acidez volátil diminui.

Há um tendencia do vinho ser de melhor qualidade quando os sulfatos aumentam.

Mas, em cada variável estudada acima, ainda há uma grande variância em relação a qualidade. Vamos tentar descobrir o por quê agora.

Vimos nesses gráficos acima como tende a qualidade em relação a distribuição das ouras variáveis: +alcool & +sulfatos = +qualidade +alcool & - acidez volátil = +qualidade +sulfatos & -acidez volátil = +qualidade

Dividi os sulfatos e a acidez volátil que 4 grupos (min-Q1, Q1-Mediana, Mediana-Q3, Q3-Max), para ver como se comportam em relação a distribuição entre alcool x qualidade. Percebemos que quanto maior o teor alcoólico e a qualiade, maiores são os valores dos sulfatos e menores o da acidez volátil.

Gráficos Finais e Sumário

Primeiro Gráfico

Descrição do Primeiro Gráfico

Gráfico indica a contagem da nota(Qualidade) dos 1599 vinhos contidos no dataset. Vimos que, apesar dos valores possíveis das notas serem de 0 a 10, nenhum deles possuiu notas abaixo de 3 ou acima de 8.

Segundo Gráfico

Descrição do Segundo Gráfico

Gráfico mostra a distribuição entre o teor alcoólico e qualidade. O gráfico também plota uma linha de tendência entre esses duas variáveis. Resumindo, Quando o teor alcoólico aumenta o vinho tende a ter melhor qualidade. Isso confirma uma hipótese que tinha que os vinhos com maior teor alcoólico tinha melhor qualidade.

Terceiro Gráfico

Descrição do Terceiro Gráfico

Gráfico que mostra a distribuição da acidez volátil e Sulfatos em relação a Qualidade do vinho. Gráfico indica que quanto menor a acidez e maior q quantidade d esulfatos, o vinho tende ter uma melhor qualidade. Este gráfico veio complementar minha hipótese pessoal, que comentei no gráfico anterior. Obviamente, a qualidade do vinho não se faz só pelo teor alcoólico, mas esta análise me mostrou duas outros pontos que pode indicar uma qualidade melhor do vinho.


Reflexão

Um dos motivos que eu escolhi este dataset sobre vinhos, dentre vários outros, foi que virei um apreciador de vinho a pouco tempo. A principal motivação esclarecer uma hipótese que tinha sobre vinhos que era: Vinhos com teor alcoólico maior tendem a ser melhores. E esta análise sobre este dataset acabou confirmando a hipótese.

Minhas principais dificuldades inicialmente foram duas: 1. Conhecimento sob a linguagem R: Para fazer esta análise tive que pesquisar bastante no google e nos materiais do curso para conesguir fazer o que queria 2. Por onde começar a EDA: inicialmente, fiquei perdido, não sabia dar um ponto de partida. Mas acabei seguindo a linha de raciocínio da EDA sobre o dataset dos diamantes feito por uma pessoa do facebook, da aula 9 e acabei conseguindo realizar esta minha EDA.